尽管变压器已经开始在视力中占主导地位,但将它们应用于大图像仍然很困难。这样做的一个很大的原因是,自我发场的标记数二次缩放,而令牌数量又随图像大小而倍增。在较大的图像(例如1080p)上,网络中总计算的60%以上仅用于创建和应用注意矩阵。我们通过引入Hydra注意来解决这个问题,这是视觉变压器(VITS)的极有效的关注操作。自相矛盾的是,这种效率来自对其极端的多头关注:通过使用尽可能多的注意力头部,Hydra注意力在代币和没有隐藏常数的特征上是线性的,使其比标准自我注意力要快得多。在现成的VIT-B/16中,代币计数的一倍。此外,Hydra注意力保留了ImageNet上的高精度,在某些情况下实际上可以改善它。
translated by 谷歌翻译
点云注册旨在估计两点云扫描之间的几何变换,在该点对应的估计中是其成功的关键。除了先前通过手工制作或学习的几何特征寻求对应的方法外,最近的点云注册方法还尝试应用RGB-D数据以实现更准确的对应关系。但是,有效地融合了这两种独特方式的几何和视觉信息并不是微不足道的,尤其是对于注册问题而言。在这项工作中,我们提出了一种新的几何感知视觉特征提取器(给出),该提取器采用多尺度的本地线性转换来逐步融合这两种方式,其中深度数据的几何特征是几何依赖于几何依赖的卷积内核来转换RGB数据的视觉功能。最终的视觉几何特征位于典型的特征空间中,由于几何变化引起的视觉差异可缓解,因此可以实现更可靠的对应关系。提出的给出的模块可以很容易地插入最近的RGB-D点云注册框架中。在3D匹配和扫描仪上进行的广泛实验表明,即使没有信件或姿势监督,我们的方法即使在没有通信或姿势的情况下也优于最先进的点云注册方法。该代码可在以下网址获得:https://github.com/514DNA/llt。
translated by 谷歌翻译
深度神经网络的兴起为优化推荐系统提供了重要的驱动力。但是,推荐系统的成功在于精致的建筑制造,因此呼吁神经建筑搜索(NAS)进一步改善其建模。我们提出了NASREC,它是一种训练单个超级网的范式,并通过重量共享有效地产生丰富的模型/子构造。为了克服数据多模式和体系结构异质性挑战,NASREC建立了一个大型的超级网(即搜索空间),以搜索完整的体系结构,而SuperNet结合了多功能操作员的选择和密集的连接性选择,并使人类的密集连接性最小化。 Nasrec的规模和异质性在搜索中构成了挑战,例如训练效率低下,操作员不平衡和降级等级相关性。我们通过提出单操作员任何连接采样,操作员平衡互动模块和训练后微调来应对这些挑战。我们对三个点击率(CTR)预测基准测试的结果表明,NASREC可以胜过手动设计的模型和现有的NAS方法,从而实现最先进的性能。
translated by 谷歌翻译
深度学习方法已成功用于各种计算机视觉任务。受到成功的启发,已经在磁共振成像(MRI)重建中探索了深度学习。特别是,整合深度学习和基于模型的优化方法已显示出很大的优势。但是,对于高重建质量,通常需要大量标记的培训数据,这对于某些MRI应用来说是具有挑战性的。在本文中,我们提出了一种名为DUREN-NET的新型重建方法,该方法可以通过组合无监督的DeNoising网络和插件方法来为MR图像重建提供可解释的无监督学习。我们的目标是通过添加明确的先验利用成像物理学来提高无监督学习的重建性能。具体而言,使用denoising(红色)正规化实现了MRI重建网络的杠杆作用。实验结果表明,所提出的方法需要减少训练数据的数量才能达到高重建质量。
translated by 谷歌翻译
神经结构搜索(NAS)已被广泛采用设计准确,高效的图像分类模型。但是,将NAS应用于新的计算机愿景任务仍然需要大量的努力。这是因为1)以前的NAS研究已经过度优先考虑图像分类,同时在很大程度上忽略了其他任务; 2)许多NAS工作侧重于优化特定于任务特定的组件,这些组件不能有利地转移到其他任务; 3)现有的NAS方法通常被设计为“Proxyless”,需要大量努力与每个新任务的培训管道集成。为了解决这些挑战,我们提出了FBNetv5,这是一个NAS框架,可以在各种视觉任务中寻找神经架构,以降低计算成本和人力努力。具体而言,我们设计1)一个简单但包容性和可转换的搜索空间; 2)用目标任务培训管道解开的多址搜索过程; 3)一种算法,用于同时搜索具有计算成本不可知的多个任务的架构到任务数。我们评估所提出的FBNetv5目标三个基本视觉任务 - 图像分类,对象检测和语义分割。 FBNETV5在单一搜索中搜索的模型在所有三个任务中都表现优于先前的议定书 - 现有技术:图像分类(例如,与FBNetv3相比,在与FBNetv3相比的同一拖鞋下的1 + 1.3%Imageet Top-1精度。 (例如,+ 1.8%较高的Ade20k Val。Miou比SegFormer为3.6倍的拖鞋),对象检测(例如,+ 1.1%Coco Val。与yolox相比,拖鞋的1.2倍的地图。
translated by 谷歌翻译
在广泛的实用应用中,需要进行远程感知的城市场景图像的语义细分,例如土地覆盖地图,城市变化检测,环境保护和经济评估。在深度学习技术的快速发展,卷积神经网络(CNN)的迅速发展。 )多年来一直在语义细分中占主导地位。 CNN采用层次特征表示,证明了局部信息提取的强大功能。但是,卷积层的本地属性限制了网络捕获全局上下文。最近,作为计算机视觉领域的热门话题,Transformer在全球信息建模中展示了其巨大的潜力,从而增强了许多与视觉相关的任务,例如图像分类,对象检测,尤其是语义细分。在本文中,我们提出了一个基于变压器的解码器,并为实时城市场景细分构建了一个类似Unet的变压器(UneTformer)。为了有效的分割,不显示器将轻量级RESNET18选择作为编码器,并开发出有效的全球关注机制,以模拟解码器中的全局和局部信息。广泛的实验表明,我们的方法不仅运行速度更快,而且与最先进的轻量级模型相比,其准确性更高。具体而言,拟议的未显示器分别在无人机和洛夫加数据集上分别达到了67.8%和52.4%的MIOU,而在单个NVIDIA GTX 3090 GPU上输入了512x512输入的推理速度最多可以达到322.4 fps。在进一步的探索中,拟议的基于变压器的解码器与SWIN变压器编码器结合使用,还可以在Vaihingen数据集上实现最新的结果(91.3%F1和84.1%MIOU)。源代码将在https://github.com/wanglibo1995/geoseg上免费获得。
translated by 谷歌翻译
具有编码器解码器架构的全卷积网络(FCN)是语义分段的标准范例。编码器 - 解码器架构利用编码器来捕获多级特征映射,其被解码器结合到最终预测中。随着上下文对于精确分割至关重要,已经提出了以智能方式提取此类信息的巨大努力,包括采用扩张/不受欢迎的卷曲或插入注意模块。但是,这些努力都基于与Reset或其他底座的FCN架构,它不能完全利用理论概念的上下文。相比之下,我们提出了Swin变压器作为骨干,以提取上下文信息并设计密集连接的特征聚合模块(DCFAM)的新型解码器,以恢复分辨率并产生分割图。两个遥感语义分割数据集的实验结果证明了提出方案的有效性。
translated by 谷歌翻译
在像素级别的特定类别分配地理空间对象是遥感图像分析中的基本任务。随着传感器技术的快速发展,可以在多个空间分辨率(MSR)中捕获远程感测图像,信息内容显示在不同的尺度上。从这些MSR图像中提取信息表示增强特征表示和表征的巨大机会。但是,MSR图像遭受了两个关键问题:1)地理对象的比例变化和2)在粗略空间分辨率下丢失详细信息。为了弥合这些差距,在本文中,我们提出了一种用于MSR远程感知图像的语义细分的新型刻度感知神经网络(SANET)。 SANET部署了密集连接的特征网络(DCFFM)模块,以捕获高质量的多尺度上下文,使得刻度变化正确地处理,并且对于大型和小物体而增加分割质量。空间特征重新校准(SFRM)模块进一步结合到网络中以学习具有增强的空间关系的完整语义内容,其中删除了信息丢失的负面影响。 DCFFM和SFRM的组合允许SANET学习尺度感知功能表示,这胜过现有的多尺度特征表示。三个语义分割数据集的广泛实验证明了拟议的Sanet在跨分辨率细分中的有效性。
translated by 谷歌翻译
Designing accurate and efficient ConvNets for mobile devices is challenging because the design space is combinatorially large. Due to this, previous neural architecture search (NAS) methods are computationally expensive. ConvNet architecture optimality depends on factors such as input resolution and target devices. However, existing approaches are too resource demanding for case-by-case redesigns. Also, previous work focuses primarily on reducing FLOPs, but FLOP count does not always reflect actual latency. To address these, we propose a differentiable neural architecture search (DNAS) framework that uses gradient-based methods to optimize Con-vNet architectures, avoiding enumerating and training individual architectures separately as in previous methods. FBNets (Facebook-Berkeley-Nets), a family of models discovered by DNAS surpass state-of-the-art models both designed manually and generated automatically. FBNet-B achieves 74.1% top-1 accuracy on ImageNet with 295M FLOPs and 23.1 ms latency on a Samsung S8 phone, 2.4x smaller and 1.5x faster than MobileNetV2-1.3[17] with similar accuracy. Despite higher accuracy and lower latency than MnasNet[20], we estimate FBNet-B's search cost is 420x smaller than MnasNet's, at only 216 GPUhours. Searched for different resolutions and channel sizes, FBNets achieve 1.5% to 6.4% higher accuracy than Mo-bileNetV2. The smallest FBNet achieves 50.2% accuracy and 2.9 ms latency (345 frames per second) on a Samsung S8. Over a Samsung-optimized FBNet, the iPhone-Xoptimized model achieves a 1.4x speedup on an iPhone X. FBNet models are open-sourced at https://github. com/facebookresearch/mobile-vision. * Work done while interning at Facebook.… Figure 1. Differentiable neural architecture search (DNAS) for ConvNet design. DNAS explores a layer-wise space that each layer of a ConvNet can choose a different block. The search space is represented by a stochastic super net. The search process trains the stochastic super net using SGD to optimize the architecture distribution. Optimal architectures are sampled from the trained distribution. The latency of each operator is measured on target devices and used to compute the loss for the super net.
translated by 谷歌翻译
While federated learning has shown strong results in optimizing a machine learning model without direct access to the original data, its performance may be hindered by intermittent client availability which slows down the convergence and biases the final learned model. There are significant challenges to achieve both stable and bias-free training under arbitrary client availability. To address these challenges, we propose a framework named Federated Graph-based Sampling (FedGS), to stabilize the global model update and mitigate the long-term bias given arbitrary client availability simultaneously. First, we model the data correlations of clients with a Data-Distribution-Dependency Graph (3DG) that helps keep the sampled clients data apart from each other, which is theoretically shown to improve the approximation to the optimal model update. Second, constrained by the far-distance in data distribution of the sampled clients, we further minimize the variance of the numbers of times that the clients are sampled, to mitigate long-term bias. To validate the effectiveness of FedGS, we conduct experiments on three datasets under a comprehensive set of seven client availability modes. Our experimental results confirm FedGS's advantage in both enabling a fair client-sampling scheme and improving the model performance under arbitrary client availability. Our code is available at \url{https://github.com/WwZzz/FedGS}.
translated by 谷歌翻译